我们提出了一个多能结构的算法框架,该结构从简单的紧凑结构演变为各种复杂的3-D结构,以设计形状可转换,可重新配置和可部署的结构和机器人。我们的算法方法提出了一种将由统一的构件组成的紧凑结构转换为大型,所需的3D形状的方法。类似于可以根据编码的信息成长为预编程形状的多能干细胞,我们称之为DNA,称为合子结构的紧凑型面板可以通过对其连接路径进行编程,可以演变成任意的3D结构。我们的堆叠算法通过将所需结构的体素化表面成反比,从而获得了这一编码序列。应用堆叠算法获得的连接路径,可以将指定的Zygote结构的紧凑型堆叠面板部署到各种大型3D结构中。我们在概念上通过分别释放商业弹簧铰链和热驱动的形状合金(SMA)铰链来证明我们的多能发展结构。我们还表明,所提出的概念可以在较小的工作区中制造大型结构。
translated by 谷歌翻译
Causal mediation analysis can unpack the black box of causality and is therefore a powerful tool for disentangling causal pathways in biomedical and social sciences, and also for evaluating machine learning fairness. To reduce bias for estimating Natural Direct and Indirect Effects in mediation analysis, we propose a new method called DeepMed that uses deep neural networks (DNNs) to cross-fit the infinite-dimensional nuisance functions in the efficient influence functions. We obtain novel theoretical results that our DeepMed method (1) can achieve semiparametric efficiency bound without imposing sparsity constraints on the DNN architecture and (2) can adapt to certain low dimensional structures of the nuisance functions, significantly advancing the existing literature on DNN-based semiparametric causal inference. Extensive synthetic experiments are conducted to support our findings and also expose the gap between theory and practice. As a proof of concept, we apply DeepMed to analyze two real datasets on machine learning fairness and reach conclusions consistent with previous findings.
translated by 谷歌翻译
弱监督的点云分段,即,由于在整个3D场景中只有几个标记点的点云,因此由于为模型训练收集丰富的密集注释的沉重负担,因此是非常可取的。但是,由于有限的注释数据可能导致标签传播的指导不足,因此现有方法仍然具有挑战性,无法准确细分3D点云。考虑到基于平滑度的方法已经取得了令人鼓舞的进步,在本文中,我们主张在各种扰动下应用一致性约束,以有效地正规化未标记的3D点。具体而言,我们提出了一个新颖的dat(\ textbf {d} ual \ textbf {a} dappive \ textbf {t} ransformations模型,用于弱监督点云进行分割,其中双重自适应转换是通过两种对敌方策略在点 - 级别和区域级别,旨在在3D点云上执行局部和结构平滑度约束。我们在大规模S3DIS和SCANNET-V2数据集上使用两个流行的骨干评估了我们提出的DAT模型。广泛的实验表明,我们的模型可以有效地利用未标记的3D点并在两个数据集上实现显着的性能增长,从而为弱监督的点云进行了新的最新性能。
translated by 谷歌翻译
在这项工作中,我们解决了长尾图像识别的具有挑战性的任务。以前的长尾识别方法通常集中于尾巴类别的数据增强或重新平衡策略,以在模型培训期间更加关注尾巴类。但是,由于尾巴类别的训练图像有限,尾部类图像的多样性仍受到限制,从而导致特征表现不佳。在这项工作中,我们假设头部和尾部类中的常见潜在特征可用于提供更好的功能表示。由此激励,我们引入了基于潜在类别的长尾识别(LCREG)方法。具体来说,我们建议学习一组在头和尾巴中共享的类不足的潜在特征。然后,我们通过将语义数据扩展应用于潜在特征,隐式地丰富了训练样本的多样性。对五个长尾图识别数据集进行的广泛实验表明,我们提出的LCREG能够显着超越先前的方法并实现最新结果。
translated by 谷歌翻译
半监督分割在医学成像中仍然具有挑战性,因为带注释的医学数据的量通常受到限制,并且在粘合边缘或低对比度区域附近有许多模糊的像素。为了解决这些问题,我们主张首先限制有或没有强大扰动的样品的一致性,以应用足够的平滑度正则化,并进一步鼓励班级分离以利用未标记的模棱两可的像素进行模型培训。特别是,在本文中,我们通过同时探索像素级平滑度和类间的分离,为半监督医学图像分割任务提出了SS-NET。像素级平滑度迫使模型在对抗扰动下产生不变结果。同时,阶层间的分离限制各个类特征应接近其相应的高质量原型,以使每个类别的分布紧凑和单独的不同类别。我们针对公共LA和ACDC数据集的五种最新方法评估了我们的SS-NET。在两个半监督的设置下的实验结果证明了我们提出的SS-NET的优势,在两个数据集上都实现了新的最先进(SOTA)性能。该代码可在https://github.com/ycwu1997/ss-net上找到。
translated by 谷歌翻译
现有的锚定面向对象检测方法已经实现了惊人的结果,但这些方法需要一些手动预设盒,这引入了额外的超参数和计算。现有的锚定方法通常具有复杂的架构,并且不易部署。我们的目标是提出一种简单易于部署的空中图像检测算法。在本文中,我们介绍了基于FCOS的单级锚定旋转对象检测器(FCOSR),可以在大多数平台上部署。 FCOSR具有简单的架构,包括卷积图层。我们的工作侧重于培训阶段的标签分配策略。我们使用椭圆中心采样方法来定义面向定向框(obb)的合适采样区域。模糊样本分配策略为重叠对象提供合理的标签。为解决采样问题不足,设计了一种多级采样模块。这些策略将更合适的标签分配给培训样本。我们的算法分别在DOTA1.0,DOTA1.5和HRSC2016数据集上实现79.25,75.41和90.15映射。 FCOSR在单规模评估中展示了其他方法的卓越性能。我们将轻量级FCOSR模型转换为Tensorrt格式,该格式在Dota1.0上以10.68 fps在jetson Xavier NX上实现73.93映射。该代码可用于:https://github.com/lzh420202/fcosr
translated by 谷歌翻译
跨模型检索已成为仅限文本搜索引擎(SE)最重要的升级之一。最近,通过早期交互的成对文本图像输入的强大表示,Vision-Language(VL)变压器的准确性已经表现优于文本图像检索的现有方法。然而,当使用相同的范例来推理时,VL变压器的效率仍然太低,不能应用于真正的跨模型SE。通过人类学习机制和使用跨模型知识的启发,本文提出了一种新颖的视觉语言分解变压器(VLDEFormer),这大大提高了VL变压器的效率,同时保持了它们的出色准确性。通过所提出的方法,跨模型检索分为两个阶段:VL变压器学习阶段和V​​L分解阶段。后期阶段发挥单一模态索引的作用,这在某种程度上是文本SE的术语索引。该模型从早期交互预训练中学习跨模型知识,然后将其分解为单个编码器。分解只需要监督和达到1000美元+ $倍的小目标数据集,并且少于0.6美元\%平均召回。 VLDEFormer还优于COCO和FLICKR30K的最先进的视觉语义嵌入方法。
translated by 谷歌翻译
从文本中提取方面 - 极性对是细粒度情绪分析的重要任务。虽然该任务的现有方法已经获得了许多进展,但它们在文本中捕获方面 - 极性对之间的关​​系,从而降低提取性能。此外,现有的最先进的方法,即基于令牌的SE静态标记和基于跨度的分类,具有它们自己的缺陷,例如极性不一致,从前者中单独标记标记和后者的异构分类导致的极性不一致。其中与方面相关和极性相关的标签混合。为了弥补上述缺陷,从最近的关系提取的进步开始,我们建议直接从具有关系提取技术的文本生成方向极性对,关于方面是各方面是才能的一致关系相应的极性是关系。基于该角度来看,我们介绍了一种位置和方面感知的序列2序列模型,用于宽高学对的关节提取。该模型的特征在于,它不仅通过序列解码中的序列解码而在文本中捕获的宽度极性对之间的关​​系,而且通过位置和方面感知的关注的方面和极性之间的相关性。在三个基准数据集上执行的实验,表明我们的模型优于现有的最先进的方法,对其进行了重大信息。
translated by 谷歌翻译
With the fast development of big data, it has been easier than before to learn the optimal decision rule by updating the decision rule recursively and making online decisions. We study the online statistical inference of model parameters in a contextual bandit framework of sequential decision-making. We propose a general framework for online and adaptive data collection environment that can update decision rules via weighted stochastic gradient descent. We allow different weighting schemes of the stochastic gradient and establish the asymptotic normality of the parameter estimator. Our proposed estimator significantly improves the asymptotic efficiency over the previous averaged SGD approach via inverse probability weights. We also conduct an optimality analysis on the weights in a linear regression setting. We provide a Bahadur representation of the proposed estimator and show that the remainder term in the Bahadur representation entails a slower convergence rate compared to classical SGD due to the adaptive data collection.
translated by 谷歌翻译
Learning efficient and interpretable policies has been a challenging task in reinforcement learning (RL), particularly in the visual RL setting with complex scenes. While neural networks have achieved competitive performance, the resulting policies are often over-parameterized black boxes that are difficult to interpret and deploy efficiently. More recent symbolic RL frameworks have shown that high-level domain-specific programming logic can be designed to handle both policy learning and symbolic planning. However, these approaches rely on coded primitives with little feature learning, and when applied to high-dimensional visual scenes, they can suffer from scalability issues and perform poorly when images have complex object interactions. To address these challenges, we propose \textit{Differentiable Symbolic Expression Search} (DiffSES), a novel symbolic learning approach that discovers discrete symbolic policies using partially differentiable optimization. By using object-level abstractions instead of raw pixel-level inputs, DiffSES is able to leverage the simplicity and scalability advantages of symbolic expressions, while also incorporating the strengths of neural networks for feature learning and optimization. Our experiments demonstrate that DiffSES is able to generate symbolic policies that are simpler and more and scalable than state-of-the-art symbolic RL methods, with a reduced amount of symbolic prior knowledge.
translated by 谷歌翻译